En este trabajo se abordará el problema de agrupar los barrios de Medellín de acuerdo a distintas dimensiones y analizar espacialmente las agrupaciones.
Dimensión Movilidad Vial y Espacio Público
La dimensión Movilidad Vial y Espacio Público determina en la encuesta de Calidad de Vida, cómo se mueven los Medellinenses. Asi mismo, el tiempo que les toma ir a trabajar, el medio de transporte predominante de las personas que trabajan y la percepción sobre la malla vial, cobertura y calidad del transporte público.
P_83 ¿Cuál es el medio de transporte utilizado predominante para dirigirse al sitio de su empleo principal?
Posibles respuestas:
Indicador: Porcentaje de personas que usan bicicleta para ir a su empleo principal Formula: Número de personas que usan bicicleta para ir a trabajar / Total Encuestados
P_84 ¿Cuánto tiempo tardan en llegar al sitio de trabajo?
Posibles Respuestas:
Indicador: Porcentaje de personas que tardan en llegar al trabajo mas de una hora Formula: Numero de personas que tardan mas de una hora para ir a trabajar / Cantidad Encuestados
P_212 ¿Cuántos vehículos particulares en funcionamiento tiene este hogar? (no incluye vehículo de servicio público o utilizado para generar ingresos) Vehiculo o auto
P_213 ¿Cuántos vehículos particulares en funcionamiento tiene este hogar? (no incluye vehículo de servicio público o utilizado para generar ingresos) Moto o motoneta
P_214 ¿Cuántos vehículos particulares en funcionamiento tiene este hogar? (no incluye vehículo de servicio público o utilizado para generar ingresos) Bicicleta
P_318 Califique Usted en una escala desde 1 hasta 5, la situación en su barrio o vereda, sobre: La pavimentación y señalización de las vias
Posibles respuestas:
Indicador: Calificación promedio del estado de la infraestrucutra vial Formula: Sumatoria de las respuestas / Cantidad de Encuestados
P_321 Califique Usted, en una escala desde 1 hasta 5, la cobertura en el transporte público en su sector, barrio o vereda en los últimos 12 meses
Posibles respuestas:
Indicador: Calificación promedio de la cobertura del transporte público Formula: Sumatoria de las respuestas / Cantidad de Encuestados
P_322 Y califique en una escala desde 1 hasta 5, la calidad de ese transporte público en su sector, barrio o vereda
Posibles respuestas:
Indicador: Calificación promedio de la Calidad del transporte publico en el barrio Formula: Sumatoria de las respuestas / Cantidad de Encuestados
El insumo principal de este trabajo son los datos abiertos del portal Medata y en particular la Encuesta de Calidad de Vida Medellín Cómo vamos.
1. Caracterización de las dimensiones para la dimensión Movilidad Vial y Espacio Público
Revisemos como es el comportamiento de los datos seleccionados
## encuesta comuna barrio
## Min. :1.201e+04 MANRIQUE : 28951 CABECERA SAN ANT DE PR. : 8987
## 1st Qu.:5.812e+07 BELEN : 26330 LAS GRANJAS : 5192
## Median :4.713e+08 ARANJUEZ : 24860 MORAVIA : 4537
## Mean :1.424e+09 POPULAR : 22587 SANTO DOMINGO SABIO Nº 1: 4152
## 3rd Qu.:1.592e+09 ROBLEDO : 22051 POPULAR : 4027
## Max. :7.489e+09 DOCE DE OCTUBRE: 21787 CASTILLA : 3873
## (Other) :184008 (Other) :299806
## estrato p_83 p_84 p_212
## Min. :1.000 Min. :-99.00 Min. :-99.00 Min. :0.0000
## 1st Qu.:2.000 1st Qu.:-88.00 1st Qu.:-88.00 1st Qu.:0.0000
## Median :2.000 Median :-88.00 Median :-88.00 Median :0.0000
## Mean :2.701 Mean :-51.65 Mean :-51.92 Mean :0.1965
## 3rd Qu.:3.000 3rd Qu.: 4.00 3rd Qu.: 1.00 3rd Qu.:0.0000
## Max. :6.000 Max. : 12.00 Max. : 5.00 Max. :6.0000
##
## p_213 p_214 p_318 p_321
## Min. :0.0000 Min. :0.0000 Min. :1.000 Min. :1.000
## 1st Qu.:0.0000 1st Qu.:0.0000 1st Qu.:3.000 1st Qu.:4.000
## Median :0.0000 Median :0.0000 Median :4.000 Median :4.000
## Mean :0.2356 Mean :0.2596 Mean :3.402 Mean :3.828
## 3rd Qu.:0.0000 3rd Qu.:0.0000 3rd Qu.:4.000 3rd Qu.:4.000
## Max. :5.0000 Max. :9.0000 Max. :5.000 Max. :5.000
##
## p_322
## Min. :1.000
## 1st Qu.:4.000
## Median :4.000
## Mean :3.808
## 3rd Qu.:4.000
## Max. :5.000
##
Cantidad de encuestados
## [1] 330574
Se procede a realizar el cálculo de cada uno de los indicadores definidos para la dimensión Movilidad Vial y Espacio Público
P_83: Porcentaje de personas que usan bicicleta para ir a su empleo principal
P_84: Porcentaje de personas que tardan en llegar al trabajo mas de una hora
P_212: Promedio de vehiculos en el hogar (Vehiculo o auto)
P_213: Promedio de vehiculos en el hogar (Moto)
P_214: Promedio de vehiculos en el hogar (Bicicleta)
P_318: Calificación promedio del estado de la infraestrucutra vial
P_321: Calificación promedio de la cobertura del transporte público
P_322: Calificación promedio de la Calidad del transporte publico en el barrio
2. Agrupamiento
Antes de realizar el proceso de agrupamiento, se realiza las siguientes acciones para preparar los datos antes de entrar al modelo:
Imputación de los valores Nulos
Normalizamos los datos
Dado que los indicadores del dataframe ECV_MOVILIDAD_FINAL se encuentran en función de hogares y personas encuestadas es necesario poner todos los indicadores en la misma escala.
Utilizaremos la técnica de Agrupamiento Kmeans, la cual hace parte del conjunto de algoritmos de aprendizaje no supervisado.
Método del codo para determinar el k óptimo
Se utilizan el diferentes métodos para determinar el k óptimo del algoritmo de clusterización Kmeans
De acuerdo a la gráfica, el cambio de pendiente más significativo es en el k = 4
Método de la siluetta para determinar el k óptimo
De acuerdo a la gráfica, donde se da el k recomendado es cuando el valor de 2
Diferencia entre los errores generados con diferentes k
De acuerdo a las gráficas de los diferentes metodos, se concluye que k = 7, es el k óptimo para la dimensión Movilidad, por lo cual aplicaremos el algoritmo Kmeans con dicho valor de k
Aplicamos K-MEANS para el k recomendado
Visualización de los grupos
Los tamaños de los cluster son:
## [1] 16 120 24 115 2 1 32
Asignación de clusters a los barrios
## El modelo da un ajuste del 62 % con k = 7
Agregaamos el cluster a la data original
Análisis de cada uno de los Grupos
## P83_IND P84_IND P212_IND P213_IND P214_IND P318_IND
## 1 -0.1666276 0.02633682 -0.2612359 2.09368682 -0.3007924 -0.4406665
## 2 -0.1359880 0.17965817 -0.5262146 -0.22122517 -0.4684933 -0.3224854
## 3 -0.1842883 -0.34898833 2.6548838 0.84275728 1.3720800 1.0118438
## 4 0.1587021 -0.36867016 0.2544272 0.05239415 0.4837018 0.6401992
## 5 -0.5221758 9.10021648 -0.9018539 -0.53689535 2.1953262 -1.3745660
## 6 14.7502181 -1.09327234 -0.9018539 -2.53761060 0.8917717 -6.0695825
## 7 -0.2671589 0.36516433 -0.7170394 -0.92475215 -1.0251930 -1.3543607
## P321_IND P322_IND
## 1 -2.1139420 -2.43455621
## 2 0.1938673 0.14813327
## 3 -0.1225368 -0.02926335
## 4 0.5965678 0.62230543
## 5 -3.1672262 -1.26961761
## 6 -1.5475815 -1.18447402
## 7 -1.4757306 -1.43631835
## cluster barrio P83_IND P84_IND P212_IND P213_IND P214_IND P318_IND
## 1 1 NA 0.2328045 2.745893 0.14658161 0.3858035 0.18085739 3.208179
## 2 2 NA 0.2528666 3.121921 0.08595109 0.1929631 0.15941590 3.250342
## 3 3 NA 0.2212407 1.825391 0.81382712 0.2815966 0.39474341 3.726379
## 4 4 NA 0.4458226 1.777120 0.26457193 0.2157566 0.28115933 3.593790
## 5 5 NA 0.0000000 25.000000 0.00000000 0.1666667 0.50000000 2.875000
## 6 6 NA 10.0000000 0.000000 0.00000000 0.0000000 0.33333333 1.200000
## 7 7 NA 0.1669790 3.576883 0.04228793 0.1343568 0.08823875 2.882208
## P321_IND P322_IND
## 1 2.998933 3.032949
## 2 3.818242 3.791282
## 3 3.705914 3.739195
## 4 3.961208 3.930510
## 5 2.625000 3.375000
## 6 3.200000 3.400000
## 7 3.225508 3.326053
Grupo 1
Son barrios donde el 0.23% de sus habitantes piensan que la bicicleta es el medio de transporte predominante para ir a trabajar y el 2.75% se demoran mas de una hora dirigirse a su lugar de trabajo. Además son barrios donde en promedio sus habitantes tienen 0.38 motos por hogar y piensan que la cobertura del transporte público en sus barrios es Aceptable.
Grupo 2
Son barrios donde el 0.25% de sus habitantes piensan que la bicicleta es el medio de transporte predominante para ir a trabajar y el 3.12% se demoran mas de una hora dirigirse a su lugar de trabajo. Además son barrios donde en promedio sus habitantes tienen 0.16 bicicletas por hogar y piensan que la calidad del transporte público en sus barrios es Buena.
Grupo 3
Son barrios donde el 0.22% de sus habitantes piensan que la bicicleta es el medio de transporte predominante para ir a trabajar y el 1.83% se demoran mas de una hora dirigirse a su lugar de trabajo. Además son barrios donde en promedio sus habitantes tienen 0.81 carros por hogar y piensan que la calidad del transporte público en sus barrios es Buena.
Grupo 4
Son barrios donde el 0.45% de sus habitantes piensan que la bicicleta es el medio de transporte predominante para ir a trabajar y el 1.77% se demoran mas de una hora dirigirse a su lugar de trabajo. Además son barrios donde en promedio sus habitantes tienen 0.26 carros por hogar y piensan que la calidad del transporte público en sus barrios es Buena.
Grupo 5
Son barrios donde el 25% de sus habitantes se demoran mas de una hora dirigirse a su lugar de trabajo. Además son barrios donde en promedio sus habitantes no tienen carros, en promedio tienen 0.5 bicicletas por hogar y piensan que la cobertura del transporte público en sus barrios es mala.
Grupo 6
Son barrios donde sus habitantes consideran que la cobertura y la calidad del transporte público en sus barrios es buena. Además, en promedio sus habitantes tienen 0.04 carros y el 3.57% de los mismos se demora mas de una hora para ir a su lugar de trabajo.
Grupo 7
Son barrios donde sus habitantes consideran que el estado de la infraestructura vial es mala. Además, el 3.57% de sus habitantes se demoran mas de una hora para ir a trabajar y en promedio tienen 0.13 motos por hogar.
Análisis espacial
Se cargan las subdivisiones territoriales de Medellín, tomadas de la página web de opendata[2]
## OGR data source with driver: ESRI Shapefile
## Source: "D:\UNAL\Tecnicas de aprendizaje estadistico\Trabajo 1\TAE_T1\Barrio_Vereda\Barrio_Vereda.shp", layer: "Barrio_Vereda"
## with 332 features
## It has 6 fields
## Integer64 fields read as strings: OBJECTID SUBTIPO_BA